Clasificación y generalización de formas verbales en sistemas de traducción estocástica

نویسندگان

  • Adrià de Gispert
  • José B. Mariño
  • Josep Maria Crego
چکیده

This paper introduces a method to incorporate linguistic knowledge regarding verb forms into an stochastic machine translation model. By means of a rule-based classification of these forms, and by substituting them by the base form of the head verb during the training stage, we achieve a better statistical word alignment, which leads to a better estimate of the translation model. Furthermore, a successful generalization strategy can be devised to produce a new translation for unseen verb forms from the translations of seen verb forms. An evaluation of this method in an English to Spanish limited-domain translation task is presented, producing a significant performance improvement.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Restricted Conceptual Clustering Algorithms based on Seeds

El estudio de la clasificación no supervisada ha sido enfocado principalmente a desarrollar métodos que determinen agrupamientos tales que objetos en el mismo agrupamiento sean similares entre ellos, mientras que objetos de diferentes agrupamientos sean poco similares. Sin embargo, para algunos problemas prácticos se requiere, además de determinar los agrupamientos, conocer las propiedades que ...

متن کامل

MorphTrans: un lenguaje y un compilador para especificar y generar módulos de transferencia morfológica para sistemas de traducción automática

Resumen Este art́ıculo presenta un lenguaje para especificar las reglas de un módulo de transferencia morfólogica para un sistema de traducción automática (TA) aśı como el compilador que se tiene que utilizar para convertir esta especificación en un programa ejecutable. El módulo de transferencia morfológica trabaja sobre la salida que produce un analizador morfológico seguido de un desambiguado...

متن کامل

Una Propuesta para el Etiquetado Automático de Roles Semánticos

Resumen: La identificación de los roles semánticos es una parte crucial en tareas que involucran tratamiento automático del lenguaje natural como la extracción y recuperación de información, sistemas de búsquedas de respuestas, generación de resúmenes, traducción automática, etc. Para el caso del español, la investigación en roles semánticos es escasa. El objetivo del actual trabajo es analizar...

متن کامل

Una metodología de construcción de sistemas de clasificación basados en reglas difusas

Resumen: En este trabajo, se presenta una metodología para obtener un conjunto de reglas difusas para sistemas de clasificación. El sistema se representa en una red difusa, en el que los antecedentes de las reglas son arcos de entrada a los nodos ocultos, y los consecuentes son arcos de salida. Se utilizan algoritmos genéticos específicos, en dos fases, para extraer las reglas. En la primera fa...

متن کامل

Estudio Bidireccional de un Sistema de RI Multilingüe Basado en Traducción de n-Gramas

Resumen Continuando nuestra investigación sobre el empleo de ngramas de caracteres como unidad de traducción en sistemas de RI Multilingüe, este art́ıculo analiza el comportamiento de nuestra solución en direcciones inversas de traducción a partir de sendos experimentos paralelos con consultas en inglés sobre textos en español y viceversa. Lo positivo de los resultados corrobora la validez de nu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 35  شماره 

صفحات  -

تاریخ انتشار 2005